Prueba de significancia de la regresión --------------------------------------- Prueba de significancia de la regresión con el estadístico :math:`t`: ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ La significancia de la regresión se relaciona en determinar si la pendiente de la línea de regresión es significativa o no. La hipótesis nula :math:`(H_0)` es que la pendiente es igual a cero, es decir, que la pendiente no es significativa y no hay relación lineal entre :math:`X` y :math:`y` y que :math:`X` tiene muy poco valor para explicar la variación de :math:`y`, en cambio, con la hipótesis alternativa :math:`(H_1)`, se evalúa si la pendiente es diferente de cero, entonces, si existe una relación lineal entre :math:`X` y :math:`y`. **Pruebas de hipótesis:** .. math:: H_0: \beta_1 = 0 .. math:: H_1: \beta_1 \neq 0 No rechazar :math:`H_0` implica que la mejor estimación es :math:`\hat{y} = \overline{y}` **(Figura a)** o que la relación no es lineal **(Figura b).** .. figure:: significancia1.png :alt: Significancia Significancia Fuente: Montgomery, Peck y Vining, 2001. Al rechazar :math:`H_0` implica que :math:`X` sí pude explicar la variabilidad de :math:`y`. Si el modelo adecuado es como la **Figura a**; sin embargo, es posible que, aunque el modelo es significativo se podría tener mejores resultados con términos polinomiales en :math:`X` como se muestra en la **Figura b.** .. figure:: significancia2.png :alt: Linealidad Linealidad Fuente: Montgomery, Peck y Vining, 2001. Se usa el estadístico :math:`t` para determinar la significancia de la regresión así: .. math:: t_0 = \frac{\hat{\beta_1}}{SE(\hat{\beta_1})} Donde, :math:`SE(\hat{\beta_1})`: Es el error estándar de :math:`\hat{\beta_1}`. .. math:: SE(\hat{\beta_1}) = \sqrt{\frac{\sigma^2}{\sum_{}(X_i-\overline{X_i})^2}} Donde :math:`\sigma^2` es el **cuadrado medio residual**, es un estimador insesgado para la varianza de la regresión. :math:`\sigma` es el **error estándar de la regresión.** .. math:: \sigma^2 = \frac{\sum_{}(y_i-\hat{y_i})^2}{n-2} = \frac{\sum_{} \hat{\varepsilon_i}^2}{n-2} :math:`n-2`: son los grados de libertad del modelo ``df = n - 2``. El 2 es porque se estiman dos parámetros. Recuerde que: :math:`SSE = \sum_{} \hat{\varepsilon_i}^2 = \sum_{}(y_i-\hat{y_i})^2`, entonces: .. math:: \sigma^2 = \frac{SSE}{n-2} Así que: .. math:: SE(\hat{\beta_1}) = \sqrt{\frac{\frac{SSE}{n-2}}{\sum_{}(X_i-\overline{X_i})^2}} Se rechaza :math:`H_0` cuando: .. math:: |t_0| > t_{\alpha/2, n – 2} Donde, :math:`t_{\alpha/2, n – 2}`: es el valor crítico de :math:`t`. El :math:`t` crítico se calcula en R así: ``qt(p = (1 - alfa) + alfa/2, df = n - 2)`` **Ejemplo:** para un :math:`\alpha = 0,05` y 264 datos ``n = 264``, el :math:`t` crítico es: ``1.96905971525654`` ``t_critico = qt(p = 0.95 + 0.05/2, df = n - 2)`` Código en R: ~~~~~~~~~~~~ .. code:: r datos = read.csv("DatosCafe.csv", sep = ";", dec = ",", header = T) print(head(datos)) .. parsed-literal:: X PrecioInterno PrecioInternacional Producción Exportaciones TRM 1 ene-00 371375 130.12 658 517 1923.57 2 feb-00 354297 124.72 740 642 1950.64 3 mar-00 360016 119.51 592 404 1956.25 4 abr-00 347538 112.67 1055 731 1986.77 5 may-00 353750 110.31 1114 615 2055.69 6 jun-00 341688 100.30 1092 869 2120.17 EUR 1 1916.0 2 1878.5 3 1875.0 4 1832.0 5 1971.5 6 2053.5 .. code:: r X = datos$Producción y = datos$Exportaciones **Ajuste del modelo:** .. code:: r regression <- lm(Exportaciones ~ Producción, data = datos) regression .. parsed-literal:: Call: lm(formula = Exportaciones ~ Producción, data = datos) Coefficients: (Intercept) Producción 235.3538 0.6769 :math:`\hat{\beta_0}`: .. code:: r beta_0 = as.numeric(regression$coefficients[1]) beta_0 .. raw:: html 235.353837174437 :math:`\hat{\beta_1}`: .. code:: r beta_1 = as.numeric(regression$coefficients[2]) beta_1 .. raw:: html 0.676867843609397 **Cantidad de datos** :math:`n`: .. code:: r n = length(X) n .. raw:: html 264 **Residuales:** .. code:: r residuales = regression$residuals head(residuales) .. raw:: html